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摘要 生物 医学 数据 从 PB 量 级 的 组 学 时 代 进 入 到 EB 量 级 的 多 维度 大 数据 时 代 ， 引 发 了 生物 医学 研究 向 数据 密集 型 
的 第 四 科学 范式 的 深刻 变革。 如 何 将 临床 数据 与 研究 数据 进行 高 维度 多 层次 的 汇 交 共享 ， 实 现 从 “组 学 ”到 临床 
与 健康 人 群 数据 的 生物 医学 大 数据 的 综合 管理 利用 ， 从 而 使 大 数据 迅速 转化 为 新 知识 ， 成 为 生物 医学 大 数据 所 面 
临 的 挑战 。 发 展 以 递交 为 基础 、 以 整合 为 导向 的 数据 存储 技术 ， 以 主题 为 基础 、 以 交互 为 导向 的 数据 共享 技术 ， 
以 及 以 传统 信息 技术 为 基础 、 以 前 沿 信 息 技 术 为 导向 的 数据 分 析 挖 气 技 术 ， 并 同时 开展 标准 质 控 相关 研究 ， 是 生 
物 医学 大 数据 存储 、 共 享 和 转化 的 新 思路 ， 也 是 构建 新 一 代 生 物 医学 大 数据 研究 中 心 的 技术 关键 和 未 来 趋势 。 


关键 词 ”生物 医学 ， 大 数据 ， 整 合 ， 交 互 ， 数 据 挖掘 
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人 类 基因 组 计划 启动 以 来 ， 以 新 一 代 测 序 技术 和 质 


物 医学 数据 从 以 基因 组 为 代表 的 PB 量 级 时 代 推 升 到 多 组 


谱 技术 为 代表 的 各 类 组 学 技术 的 飞速 发 展 ， 推 动 了 基因 
组 、 转 录 组 、 表 观 踪 传 组 、 和 蛋白 质 组 、 代 谢 组 等 海量 生 
命 科 学 组 学 数据 的 指数 级 的 增长 "”。 一 方面 ， 机 器 学 习 
和 人 工 智 能 技术 极 大 提升 了 医学 影像 和 分 子 影 像 技术 的 
分 析 能 力 ， 正 在 改变 以 影像 组 、 放 射 组 为 代表 的 医学 影 
像 数据 的 应 用 方式 。 高 通 量 实验 技术 的 突破 ， 直 接 把 生 
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学 融合 的 EB 量 级 时 代 。 男 一 方面 ， 人 群 队 列 研究 、 分 子 
流行 病 学 研究 产生 了 大 量 长 时 间 、 广 空间 的 数据 ， 表 型 
组 从 分 子 、 细 胞 、 组 织 、 需 官 、 个 体 等 多 层面 描述 了 高 
维 数据 ， 真 实 世 界 数据 (real world data ) 回顾 性 地 汇总 
分 析 海 量 的 临床 信息 数据 "”， 这 些 数 据 构成 了 复杂 的 高 
维度 生物 医学 大 数据 。 
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我 们 已 经 进入 了 具备 相当 深度 和 广度 的 生物 医学 大 
数据 时 代 。 生 物 医学 临床 数据 呈现 数量 巨大 、 增 长 迅速 、 
质量 控制 困难 、 来 源 广泛 繁杂 、 难 以 标准 化 与 结构 化 等 特 
点 ， 生 物 医学 研究 数据 呈现 种 类 繁多 、 内 部 结构 高 维 复 
杂 、 内 涵 丰 富 、 数 据 相对 分 散 、 难 以 高 维度 多 层次 交汇 共 
享 等 特点 ， 生 物 医学 数据 总 体 表现 为 数据 零散 分 布 、 难 以 
有 效 整 合 分 析 ， 从 而 导致 难以 挖掘 生物 医学 大 数据 的 潜在 
高 价值 。 对 我 国生 物 医 学 而 言 ， 数 据 无 汇 交 机 制 ， 导 致 存 
储 碎片 化 、 管 理 分 散 、 流 失 损 耗 严 重 ; 数据 无 安全 保障 ， 
无 国际 交流 窗口 ， 被 迫 持续 成 为 世界 最 大 组 学 数据 输出 
Fl; 数据 无 共享 平台 ， 标 准 化 管理 混乱 ， 质 量 参差 不 齐 ， 
开放 共享 受 国际 、 国 内 的 政策 与 技术 的 双重 限制 。 

生物 医学 研究 正在 发 生 面 向 数据 密集 型 的 第 四 科学 
范式 的 深刻 变革 ， 如 何 实现 从 “组 学 ”到 临床 与 健康 人 
群 数据 的 生物 医学 大 数据 的 交汇 、 综 合 管理 、 利 用 和 共 
E, 将 多 层次 临床 与 研究 数据 进行 深度 挖 据 和 高 维度 、 
全 方位 的 有 机 整合 ， 将 大 数据 迅速 转化 为 新 知识 ， 成 为 
我 们 所 面临 的 挑战 ， 其 中 研究 建设 下 一 代 生物 医学 大 数 
据 存储 、 共 享 和 转化 中 心 的 关键 要 素 〈 图 1 ) 。 


义 区 块 链 为 代表 的 生物 医学 大 数据 安全 与 共享 


El 生物 医学 大 数据 平台 的 技术 关键 


1 以 递交 为 基础 、 以 整合 为 导向 的 数据 存储 
时 在 20 世纪 80 一 90 年 代 ， 美 国 、 欧 洲 和 日 本 即 已 分 

别 建立 世界 三 大 生物 数据 中 心 ， 即 美国 国家 生物 技术 信 

息 中 心 (NCBI) 、 欧 洲 生 物 信息 研究 所 (EBI) 和 日 本 


CD http://www.iprox.org/. 
(2) http://www.ukbiobank.ac.uk. 
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DNA 数据库 (DDBJ) 。 这 三 大 数据 中 心经 过 近 3 0 年 的 建 
设 , 已 经 形成 了 完备 的 数据 汇 交 技术 体系 ， 在 基因 组 、 
转录 组 、 蛋 白质 组 等 领域 发 挥 着 重要 影响 力 “"1。 国 内 机 
构 也 已 经 开始 按照 数据 类 型 建设 了 GSA'"”、iPROX"、 
WDCM' 等 基因 组 、 和 蛋白 质 组 、 微 生物 资源 等 组 学 数据 
中 心 。 我 国 健康 医疗 大 数据 中 心 的 “1+5+X” 规 划 已 经 
落地 ， 即 国家 数据 中 心 与 江苏 、 福 建 、 山 东 、 安 徽 、 贵 
州 的 东 、 南 、 西 、 北 、 中 5 个 健康 医疗 大 数据 区 域 
已 经 形成 ， 将 容纳 全 体 公 民 健 康 医疗 大 数据 。 

各 类 已 建 、 在 建 的 生命 科学 和 健康 医疗 数据 中 心 ， 
极 大 地 丰富 了 生命 科学 、 临 床 医疗 等 生物 医学 大 数据 的 
采集 能 力 。 但 是 随 着 数据 规模 的 增加 ， 如 何 更 加 有 效 地 
利用 数据 成 了 挑战 。 传 统 的 数据 模型 和 数据 组 织 方式 ， 
已 经 无 法 满足 海量 数据 的 结构 、 数 量 快 速 增长 以 及 数据 
结构 不 断 变化 的 管理 需求 ， 难 以 按照 实际 情况 动态 调 
整 。 对 于 已 有 或 者 将 要 建设 的 综合 性 生物 医学 大 数据 平 
台 而 言 ， 有 必要 突破 传统 的 严格 按照 一 类 数据 建设 一 个 
数据 库 的 模式 ， 采 用 新 的 仓储 式 的 数据 仓库 模式 ， 在 底 
层 数据 结构 上 以 整合 为 导向 ， 按 照样 本 、 宿 主 、 环 境 等 
信息 ， 以 及 时 间 、 空 间 信息 ， 预 留 不 同类 型 的 数据 之 间 
的 联系 ， 形 成 弹性 的 数据 结构 ， 支 持 数 据 结 构 动态 调 
整 ， 为 后 期 数据 集成 与 整合 工作 奠定 坚实 的 基础 。 


ii 


2 以 主题 为 基础 、 以 交互 为 导向 的 数据 共享 


NCBI 和 EBI 等 机 构 通 过 数据 递交 服务 汇聚 了 大 量 的 
数据 资源 ， 并 通过 网 络 提供 数据 共享 。 截 至 2018 年 7 月 ， 
NCBI 和 EBI 提 供 的 生物 序列 、 分 子 结构 、 遗 传 信息 、 表 
型 信息 等 可 以 共享 的 数据 接近 资源 都 已 经 超过 60 W, 
这 些 数据 资源 极 大 地 促进 了 生命 科学 与 生物 医学 研究 。 
除了 共享 第 三 方 递交 的 数据 资源 外 ， 以 美国 国家 癌症 研 
究 院 (NCI) 建立 的 TCGA (The Cancer Genome Atlas ) 
数据 库 趾 、 英 国 的 国家 队列 UK Biobank (UKB ) “等 , 采 
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用 的 是 另外 一 种 模式 ， 即 依托 大 型 科研 项 目 产 出 的 数据 ， 
提供 分 级 共享 ， 满 足 不 同类 型 的 科研 需求 。 介 于 这 两 者 之 
间 ， 中 小 型 研究 团队 利用 自身 的 数据 采集 能 力 和 整合 能 
力 ， 建 立 了 大 量 的 种 类 繁多 、 规 模 悬 珠 、 质 量 参差 不 齐 的 
数据 库 和 知识 库 ， 提 供 数据 查询 、 浏 览 、 下 载 服务 ， 部 
分 数据 库 还 提供 在 线 分 析 服 务 。Nucleic Acids Research 
年 第 1 期 都 出 版 数据 库 专 刊 ， 到 目前 为 止 , 已 经 发 表 
了 1737 篇 数据 库 相 关 论文 "， 其 已 经 成 为 生物 医学 数据 
库 领 域 最 有 影响 力 的 专刊 。 

这 些 按照 数据 类 型 (如 基因 组 、 转 录 组 、 和 蛋白 质 
组 等 ) 、 物 种 (如 人 类 、 人 类 以 外 、 着 椎 动物 、 无 兰 
椎 动物 、 微 生物 等 ) 、 研 究 目的 〈 如 遗传 变异 、 转 录 因 
子 、 调 控 网 络 ) 等 方式 建设 的 数据 库 ， 在 推进 数据 共 
享 方面 发 挥 了 巨大 的 作用 。 但 是 随 着 数据 类 型 和 规模 
的 日 益 扩 大 ， 如 何 存储 、 组 织 、 访 问 存 放 在 不 同 平台 
上 的 不 同类 型 的 生物 医学 数据 成 为 新 的 挑战 。 为 此 ， 
研究 者 提出 FAIR 原则 ， 即 可 发 现 (findable) 、 可 访 
la] (accessible ) 、 互 操作 (interoperable ) 和 重用 (re- 


usable ) "°!, SEF FAIR 原则 ，BD2K""、OmicsDIM" 等 平 
台 采 用 搜索 引擎 等 技术 突破 传统 的 以 主题 为 基础 建设 的 
数据 库 的 局 限 性 ， 对 EBI、NCBI 等 数据 中 心 的 数据 资源 
提供 统一 检索 服务 ， 实 现 以 搜索 引擎 为 核心 的 数据 跨 库 
整合 ， 更 好 地 满足 用 户 一 站 式 的 数据 共享 需求 。 

除了 搜索 技术 外 ， 数 据 可 视 化 、 在 线 分 析 也 是 用 户 
利用 数据 的 重要 手段 。 新 的 可 视 化 技术 ， 包 括 HTML5S、 
JavaScript 等 Web 展示 技术 在 数据 平台 中 的 应 用 越 来 越 广 
泛 ， 用 于 大 分 子 展示 、 分 子 影像 、 基 因 组 浏览 器 等 "1。 
此 外 ， 依 托 数据 库 的 分 子 序列 、 分 子 结构 、 调 控 及 相互 
作用 网 络 等 数据 ， 数 据 库 根据 自身 特点 ， 集 成 了 序列 比 
对 、 多 序列 比 对 、 结 构 相 似 性 比较 、 网 络 结构 分 析 等 在 
线 分 析 的 工具 ， 也 极 大 地 加 强 了 数据 的 可 交互 性 。 

在 建设 生物 医学 大 数据 平台 时 ，TB 量 级 的 数据 下 
载 需求 对 数据 下 载 、 单 库 检索 等 数据 共享 手段 提出 了 严 
峻 的 挑战 。 因 此 在 延续 按照 主题 ( 数据 类 型 、 物 种 、 研 
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究 领 域 ) 组 织 数据 的 基础 上 ， 引 入 跨 库 搜索 引擎 、 可 视 
化 、 在 线 分 析 等 在 线 交 互 技术 ,通过 更 加 准确 地 返回 用 
户 数据 访问 结果 的 方式 ， 提 高 数据 共享 效率 。 


3 以 传统 信息 技术 为 基础 、 以 前 沿 信息 技术 
为 导向 的 数据 挖掘 


从 分 析 的 角度 来 看 ， 生 物 医学 大 数据 包括 生命 科 
学 研究 数据 ， 以 及 临床 医学 数据 。 在 生物 信息 学 、 计 算 
生物 学 、 系 统 生 物 学 等 计算 学 科 的 支持 下 ， 以 基因 组 、 
转录 组 、 和 蛋白 质 组 、 代 谢 组 等 组 学 数据 为 代表 的 生命 科 
学 研究 数据 的 分 析 方法 已 经 日 趋 成 熟 ， 分 析 流程 日 益 普 
及 ,正在 逐步 成 为 传统 的 信息 技术 。 临 床 医学 数据 在 数 
据 统 计 、 数 据 建 模 、 机 带 学 习 等 技术 的 支持 下 ，SAS、 
MATLAB、R 语言 等 分 析 工 具 也 得 到 了 广泛 应 用 

数据 挖掘 能 力 ， 尤 其 是 组 学 数据 挖掘 能 力 ， 越 来 
越 难以 满足 飞速 增长 的 数据 产 出 。 其 面临 的 主要 挑战 在 
Ta 数据 量 越 来 越 大 ， 需 要 速度 更 快 的 数据 压缩 、 传 
ái. SPT ATI), 数据 维度 越 来 越 高 ， 需 要 更 加 准确 
的 降 维 方法 中 。 基 于 GPU ( 图 形 处 理 器 ) 、 
场 可 编程 门 阵列 ) 等 硬件 技术 ， 对 传统 的 生物 信息 分 析 
方法 的 限 速 步骤 进行 算法 优化 ， 在 序列 比 对 、 分 子 对 接 
得 到 越 来 越 多 的 应 用 。 而 以 深度 神经 网 络 为 代表 的 
人 工 智能 技术 ,在 医学 影像 处 理 、 高 维 数据 降 维 等 方 男 
的 应 用 呈现 爆发 式 的 增长 ， 包 括 致 育 性 视网膜 疾病 与 肺 
炎 、 阿 尔 欧 海 默 病 、 皮 肤 癌 、 脑 膜 瘤 等 医学 影像 辅助 诊 
断 等 ””"。 此 外 ， 区 块 链 技术 由 于 其 去 中 心 的 特性 ， 也 
开始 在 生物 医学 数据 共享 方面 得 到 应 用 …”。 

前 沿 信息 技术 在 生物 医学 大 数据 中 的 应 用 ， 将 涵盖 
数据 预 处 理 、 数 据 传 输 、 数 据 分 析 、 数 据 共享 等 范围 ， 
提升 数据 挖掘 能 力 。 


o 


FPGA ( Jii 


ss 


4 数据 标准 与 质量 控制 


生物 医学 大 数据 的 数据 标准 包括 术语 集 、 数 据 标 
准 、 综 合 标准 等 。 典 型 的 术语 集 包 括 基因 本 体 GOP, 
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人 类 表 型 本 体 HPO"” 等 ， 序 列 最 简 描述 信息 标准 集 包 
括 MIxS 5 MIGS" & ICD10?, SNOMED-CT 等 医 
学 数据 标准 。 生 命 科 学 领域 的 数据 标准 大 多 由 有 国际 
影响 力 的 机 构 或 协会 率先 提出 ， 伴 随 配 套 的 数据 解析 或 
分 析 软 件 ， 逐 步 得 到 学 术 界 的 认可 。 例 如 : 由 国际 核 
酸 序列 数据 库 协 会 (INSDC ) 定义 的 “The DDBJ/ENA/ 
GenBank Feature Table Definition" "J£ NCBI, EBI 等 
数据 中 心 最 早 的 核酸 序列 数据 标准 ， 以 及 基因 组 拼接 
数据 标准 ; EBI 和 NCBI 等 定义 的 基因 芯片 实验 数据 标 
i£ MIAMEP?, GEOP?, FGED 定义 的 二 代 测 序数 据 标 
ME MINSEQE2， 以 及 拼接 文件 格式 BAM 、 变 异 文件 格 
式 VCF 、 遗 传 特征 描述 格式 GFF3 "等 ， 医 学 领域 得 到 最 
为 广泛 认可 的 数据 标准 是 医学 影像 标准 DICOM’, E% 
领域 的 标准 比 生 命 科 学 领域 的 数据 标准 要 复杂 得 多 ， 规 
范 化 程度 也 更 高 。 医 学 领域 的 标准 大 多 需要 经 过 立项 、 
草案 、 发 布 等 阶段 ， 得 到 了 更 为 广泛 的 认可 ， 如 国际 标 
准 化 组 织 健康 信息 学 标准 化 技术 委员 会 的 ISO/TC 215 系 
列 标准 ”、HL7 ( 卫生 信息 用 户 层 ，ISO 定义 的 信息 交 
换 7 层 协议 规范 中 的 第 七 层 ) ”、 临 床 数据 交换 标准 协 
会 CDISC" 等 ; 标准 的 范围 也 远 比 生命 科学 领域 的 数据 标 
准 复杂 ， 包 括 词 汇 术 语 、 数 据 描述 、 技 术 操 作 、 应 用 服 
务 和 医疗 管理 等 。 

生命 科学 的 标准 主要 集中 在 术语 集 和 数据 标准 ， 不 
同 的 标准 之 间 相 对 独立 ， 对 数据 产 出 过 程 、 分 析 过 程 的 
规范 性 表述 较 少 。 医 学 的 数据 标准 更 强调 互 操作 、 互 联 
互通 等 ,不 同 的 标准 自 成 体系 ,但 是 对 支撑 科研 的 数据 
标准 的 描述 反而 较 少 。 因 此 ， 生 物 医 学 大 数据 号 竺 加强 


(3) http://apps.who.int/classifications/icd10/browse/2016/en. 
(4) https://www.snomed.org/snomed-ct. 

(5) http://fged.org/site media/pdf/MINSEQE 1.0.pdf. 

© http://gmod.org/wiki/GFF3. 

(T) https://www.dicomstandard.org/. 
https://www.iso.org/committee/54960.html. 

(9) http://www.hl7.org. 

M https://www.cdisc.org. 

@ http://www.biosino.org/node. 
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临床 科研 的 数据 标准 体系 的 建设 ， 以 及 数据 分 析 过 程 的 
操作 相关 的 标准 的 建设 。 

数据 质量 控制 受到 数据 产 出 、 数 据 分 析 的 影响 ， 
不 同 的 数据 质 控 有 所 差别 。 世 片 、 基 因 组 数 以 美国 食 
品 药品 监督 管理 局 (FDA) 主导 的 MAQC、MAQC-II、 
MAQC-I 等 ， 由 于 独立 于 技术 系统 之 前 ， 得 到 了 较 
为 广泛 的 认可 。 和 蛋白 质 组 的 数据 质 控 ， 缺少 与 MAQC 相 
匹配 的 大 项 目 ， 而 是 主要 通过 PRIDE、iPROX 等 数据 汇 
交 平 台 的 质 控 工具 “来 体现 。 数 据 质量 控制 需要 提供 参 
考 数据 集 作为 基准 ， 包 括 实验 方法 产 出 的 原始 数据 与 参 
考 数据 集 的 吻合 情况 ， 以 及 数据 分 析 形 成 的 分 析 结果 与 
参考 数据 集 的 吻合 情况 。 因 此 ， 针 对 有 广泛 用 途 或 者 重 
要 用 途 的 数据 类 型 ， 建 设 参考 数据 集 、 参 考 数据 分 析 流 
程 ， 是 数据 质量 控制 的 关键 环节 ， 也 是 生物 医学 大 数据 
平台 的 重要 建设 内 容 。 


5 实践 与 思考 


我 们 正在 建设 以 组 学 数据 百科 全 书 一 -NODEY 为 代 
表 的 开放 式 基 础 性 平台 ， 并 达到 了 一 定 的 数据 规模 。 其 
中 ,在 整合 存储 方面 ， 数 据 平台 与 数据 库 包 括 以 微生物 
组 大 数据 平台 为 代表 的 领域 示范 平台 ， 以 骆驼 基因 组 变 
异 数据 库 、 可 翻译 转录 组 RNA 数据 库 等 为 代表 的 专题 数 
据 库 。 在 交互 共享 方面 ， 正 在 向 NODE 系统 集成 全 基因 
组 、 外 显 子 组 、 转 录 组 等 常规 组 学 数据 分 析 流 程 ， 微 生 
物 16S RNA、 宏 基因 组 、 微 生物 功能 注释 等 领域 组 学 数 
据 分 析 流 程 。 在 前 沿 信息 技术 方面 ， 利 用 GPU 技术 对 转 
录 组 、 宏 基因 组 等 组 学 数据 拼接 、 映 射 等 高 资源 消耗 的 
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环节 进行 优化 。 在 标准 质 控 方面 ， 开 展 了 包括 描述 信息 
和 原始 数据 在 内 的 质量 控制 ， 并 建立 了 自动 化 的 质 控 流 
程 ， 将 实现 数据 汇 交 时 就 自动 完成 质 控 评估 的 功能 。 

硬 对 生物 医学 大 数据 的 挑战 ， 建 立 全 面 支撑 生命 科 
学 研究 数据 与 健康 医学 大 数据 的 汇 交 、 管 理 、 共 享 与 挖 气 
的 技术 与 资源 体系 ， 形 成 以 递交 为 基础 、 以 整合 为 导向 的 
数据 存储 中 心 ， 以 主题 为 基础 、 以 交互 为 导向 的 数据 共享 
中 心 ， 以 及 以 传统 信息 技术 为 基础 、 以 前 治 信息 技术 为 导 
向 的 下 一 代 生 命 科 学 数据 转化 中 心 ， 将 有 效 地 支撑 生物 医 
学 、 健 康 医疗 等 领域 的 基础 研究 、 应 用 研究 和 产业 示范 。 
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New Challenges and Trends in Bio-Med Big Data 


ZHANG Guoging'* LlIYixue" WANG Zefeng ZHAO Guoping! 

( 1 Bio-Med Big Data Center, CAS Key Laboratory of Computational Biology, CAS-MPG Partner Institute for Computational 
Biology, Shanghai Institute of Nutrition and Health, Shanghai Institutes for Biological Sciences, University of Chinese Academy of 
Sciences, Chinese Academy of Sciences, Shanghai 200031, China; 
2 Shanghai Center for Bioinformation Technology, Shanghai 201203, China ) 
Abstract The bio-medical data has entered a new era from exabyte-scale of genomic data to petabyte-scale of multi-dimensional big data, 
transforming the biological and medical research into a “data-intensive science" that is also referred as the fourth paradigm of discovery. Such 
transformation presented a set of new challenges: we have to efficiently gather and share high-dimensional and multi-level clinical and research 
data, further facilitate the comprehensive utilization of various omics data, clinical data, and phenome data of large population, eventually 
convert big data to new knowledge. Such challenges have to be faced by employing a new series of paradigm shifting ideas. In particular, new 
frameworks should be developed to improve the current submission-based data storage system to an integration-oriented system; to improve 
the subjective-based data sharing system to an interactive-oriented system; to integrate the cutting edge information technologies into the 
current data mining system. At the same time, large efforts have to be invested in developing data standardization guidelines and quality control 
technologies. These ideas will be critical in order to establish next generation of bio-medical big data centers and will be a new trend of future 
research. 
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